查看原文
其他

DeRPN: 一种基于维度分解的候选区域提取网络(AAAI 2019论文,附开源代码)

谢乐乐 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2019 论文“Lele Xie, Yuliang Liu, Lianwen Jin*, Zecheng Xie. DeRPN: Taking a further step toward more general object detection”的主要工作。该文提出了一种基于维度分解的候选区域提取方法(dimension-decomposition region proposal network,DeRPN),通过引入新颖的anchor strings,把目标的宽高解耦来分解检测维度,从而减轻目标形状变化对检测造成的影响。DeRPN可避免传统RPN网络对不同任务需要进行合适的anchor box调参问题,是一种更加通用的目标检测候选区域提取方法。在通用目标检测数据集(Pascal VOC 2007 & 2012,MS COCO)和自然场景文本检测数据集(ICDAR 2013,COCO-Text)上的实验表明,DeRPN的效果已经超越了传统的region proposal network(RPN)[1]。此外,本方法在不修改任何超参数、不做特别优化的情况下可直接应用于不同的任务和数据集上取得state-of-the-art的性能,具有极强的自适应性。论文相关代码已开源,下载链接见文末。


一、研究背景


在深度学习的推动下,通用目标检测已经取得了快速的发展。相关研究者也对该任务的通用性寄予了更高的期望,致力于让模型能检测更多的物体类别,并能在不同的数据集或任务上都有良好的表现。然而,我们发现目前的检测算法并非很通用,当我们把目前state-of-the-art的算法运用于不同的数据集时,通常不可避免地要对它们的回归参考(regression references,在RPN中也叫做anchor boxes)进行重新设计。其主要原因在于RPN中的anchor boxes过于敏感,限制了检测算法的自适应性。为此,我们提出了维度分解的候选区域提取网络,引入新颖的anchor strings来替代传统的anchor boxes,以提升检测算法的自适应性。


二、DeRPN原理简述



图1、DeRPN的网络结构和流程

 

如图所示,DeRPN包含维度分解和维度重组两个步骤。维度分解中,我们引入anchor strings机制,让目标的宽高独立地与anchor strings进行匹配,以寻求最佳的回归参考。其中,每个anchor string只需要独立地应对数据集中目标宽(高)的n种变化即可,而先前的anchor box则要应对n2种目标框的变化。因此,通过这种维度分解,我们可以极大地降低匹配复杂度(O(n2)-->O(n))。

为了将所预测的线段恢复成二维的候选区域(region proposal),我们需要做维度重组。论文提出了pixel-wise combination algorithm的维度重组算法,这种无监督的高效组合算法,可以让DeRPN精确地召回检测目标。


三、主要实验结果

为验证DeRPN的自适应性,我们把DeRPN的超参数固定不变来进行下述所有实验。在不同数据集上的实验结果如表1-4所示。

 

表1、MS COCO检测结果。检测器为Faster R-CNN (VGG16)



表2、ICDAR 2013检测结果。数值表达含义为:recall / precision / F-measure

 

表3、在COCO-Text上的检测结果

 

表4、在Pascal VOC数据集上的检测结果(检测器为Faster R-CNN)

 

从表1-表4可见,本文提出的DeRPN方法取得了比传统RPN明显好的性能,特别是在高IoU情况下,DeRPN的性能优势十分明显(图2)。

    

 

图2、RPN和DeRPN的IoU分布

 

       相同网络模型在不修改任何超参数的情况下,在COCO-Text数据集上与目前一些主流方法的评测对比结果如表5所示。

 

表5、 与专业的自然场景文本检测算法比较

 

       场景文字检测部分可视化结果如图3所示。

图3、检测可视化结果。绿虚线为ground truth,黄线为DeRPN检测结果,蓝线为RPN检测结果

 

四、相关下载

论文arXiv下载地址:https://arxiv.org/abs/1811.06700v1

开源代码下载地址:https://github.com/HCIILAB/DeRPN

 

参考文献


[1] Ren, S.; He, K.; Girshick, R.; and Sun, J. 2015. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 91–99.


本文作者简介:谢乐乐,华南理工大学在读硕士生,主要研究方向为目标检测、自然场景文本检测、计算机视觉。

(长按识别上图二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存